金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

数据仓库数据管理的关键技术

2012-10-09 16:07:27作者:中国建设银行股份有限公司信息技术管理部厦门开发中心 郑承满编辑:
数据仓库的数据管理只靠新技术或高性能设备是不够的。数据仓库是一项系统工程,做好数据管理需要各个环节的密切配合,特别是技术架构与数据袈构的充分适应。

数据仓库不是一个单纯的软件系统,而是一项工程,这决定了其技术的多样性和复杂性。本文从数据管理角度将数据仓库的技术需求按其工作过程分为三类:数据获取、大数据量管理和数据提供(如图1所示),并选取其中的几项关键技术进行分析。

图1-1.jpg

一、数据获取
        与交易系统不同,数据仓库自身不产生业务数据,只能从外部获取。从数据获取周期来看,有批量获取和实时获取两种方式。批量获取将外部系统的变化按一定周期(如每天)提供给数据仓库,实时获取则是将变化数据在较短时间内(如每秒)传送给数据仓库。从获取技术来看,主要有数据标示法和日志分析法,两种方法都可以实现批量和实时获取,但是在操作复杂度和对系统影响方面有很大不同。

        1.数据标识法
        将数据仓库要捕获的数据预先标记,当数据发生变化时通过触发器等手段捕捉。优点是,可以准确定位数据,只捕获需要的数据,减少不必要的开销。此外,数据直接从业务系统数据库中获取,无需进行格式变换,开发难度小。缺点是,会带来额外的资源开销,且由于数据仓库的需求不稳定,频繁捕获规则对业务系统影响较大。因此,数据标识法较适合应用于导出已经包含时间标记的数据(如交易流水)。

        2.日志分析法
        数据库日志记录了所有的数据变化,通过分析日志可以提取数据仓库所需数据。从日志中提取数据不增加系统开销,变更获取规则也相对容易。不过日志数据格式复杂,分析难度大,需要开发特殊的处理程序来完成。

        以上两种方法适用于批量获取,如实时获取,则须将源系统与数据仓库直连。系统直连需要数据获取技术具备实时传输功能,在大机系统中,还须支持数据转码、类型转换和Ficon协议等。实时获取可满足实时分析需求,但成本较高,且存在一定运行风险,实施前要充分与业务部门沟通,明确业务动机和预期效益。

        数据捕获涉及数据仓库外部系统改造,实施时应结合企业原有的IT环境,满足如下技术要求:不增加太多系统开销;开发简单,配置灵活;具备实时获取和传输能力。

二、大数据量管理
        数据仓库保留长周期的历史数据和多重粒度数据,数据处理量比交易系统大很多,给数据存储和管理带来巨大挑战。为应对这一挑战,数据仓库产品大都采用并行技术构建;同时,数据压缩和跨介质管理技术可以降低存储成本,提高数据仓库访问效率,也成为大数据量管理的必备技术。

        1.并行处理技术
        交易系统访问短小而密集,系统需要均衡分担用户请求,要求系统具有较好的并发处理能力;数据仓库访问则恰恰相反,庞大而稀疏,查询和统计都比较复杂,但访问频率不高,系统需要调动所有处理资源完成数据处理,因此并行处理技术成为数据仓库的核心技术。

        并行架构有三种实现方式:共享内存(share—Memor-y)、共享磁盘(share—Disk)和无共享(Share—Nothing),其中无共享架构方式最能满足数据仓库大数据量处理需求。首先,该架构将数据均匀分布到各节点,操作时每个节点只处理部分数据,可实现高性能;其次,该架构具备线性扩展能力,不存在系统瓶颈;再次,该架构容易实现高可用性,单个节点故障不会影响系统整体运行;最后,该架构可以根据各节点性能差异分配不同负载,减少硬件变化对系统的冲击,有利于实现投资保护。

        理论上,并行技术可实现无限数据量管理。并行数据处理的技术特征是:分布式计算和存储;大数据查询优化;任务混合负载;线性扩展和投资保护。

        2.数据压缩技术
        数据仓库数据量庞大,数据变化少,非常适合做数据压缩。目前应用最多的压缩技术是数据字典法,也就是将每一条记录列上相同时值替换成占用空间较少的元素(如指针)。此方法操作简单,但是需要定期检查压缩值是否有效,压缩比也较小,平均只有25%。目前压缩效果最好的技术是列存储压缩,压缩比为75%~90%,可为数据仓库节省大量存储空间。

        传统的数据压缩方法会额外占用CPU资源进行压缩和解压,不过这些资源耗费在数据仓库系统中可以忽略。这是因为数据仓库的大数据量处理一般会导致I/0瓶颈,而CPU资源则相对充足,数据压缩后I/O读写量减少,CPU利用空闲资源解压,不但提升了数据吞吐率,而且使系统资源利用更加均衡。

        数据压缩是大数据管理中非常重要的一环,应具备如下技术特征:自动压缩、全字段压缩、高压缩比、资源消耗少。

        3.跨介质管理技术
        数据仓库中大量数据随着时间的推移,访问概率会逐渐降低,根据数据生命周期理论,低访问概率的数据应该转移至低速存储介质以降低成本,当有访问需求时再迁移回高速存储介质。这要求数据仓库具有跨介质管理能力,即用户不必关心数据存放的位置,系统自动在不同介质中定位数据。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章